小白学大模型:大模型加速的秘密 FlashAttention 1/2/3
在 Transformer 架构中,注意力机制的计算复杂度与序列长度(即文本长度)呈平方关系。这意味着,当模型需要处理更长的文本时(比如从几千个词到几万个词),计算时间和所需的内存会急剧增加。最开始的标准注意力机制存在两个主要问题:
模型 gpu 矩阵乘法 sra flashattention 2025-09-10 14:17 9
在 Transformer 架构中,注意力机制的计算复杂度与序列长度(即文本长度)呈平方关系。这意味着,当模型需要处理更长的文本时(比如从几千个词到几万个词),计算时间和所需的内存会急剧增加。最开始的标准注意力机制存在两个主要问题:
模型 gpu 矩阵乘法 sra flashattention 2025-09-10 14:17 9